CIAware-Bench: Benchmark de conciencia de intervención en LLMs
Descubre CIAware-Bench, el benchmark que mide si los LLMs de frontera detectan intervenciones de control. Resultados revelan baja conciencia y variabilidad entre modelos.
Descubre CIAware-Bench, el benchmark que mide si los LLMs de frontera detectan intervenciones de control. Resultados revelan baja conciencia y variabilidad entre modelos.